体育赛事数据映射:革新体育分析与投注


DATA.BET的首席数据科学家Oleksii Kulish为SBC News撰文,强调了映射系统的重要性及其对预测准确性和投注策略的影响。
在数字时代,体育数据来自不同的来源,如官方联赛数据库和第三方聚合商。这种多样性给确保数据集之间的一致性和准确性带来了挑战。
体育赛事映射系统是技术解决方案,它将来自多个来源的数据统一到一个单一的、连贯的数据库中。本文探讨了此类系统如何工作以及为什么它们对现代体育分析和投注至关重要。
什么是数据映射?
数据映射是将来自不同数据源的体育赛事、锦标赛、球队甚至球员关联到统一实体(见下图)的过程。许多依赖于简单的系统,这些系统假设专有名词的拼写相同或相似。
然而,这种方法由于拼写变化、语言差异以及在某些联赛中没有明确区分的同名球队而经常面临重大挑战。
例如,通常认为乌克兰超级联赛中的“Dynamo”指的是基辅迪纳摩。类似地,一项足球锦标赛在一个来源中可能被称为“Segunda Liga”,在另一个来源中被称为“Liga Portugal 2”,或者“Liga Portugal SABSEG”指的是联赛的冠名赞助商。


如果没有适当的映射,这些不一致之处会破坏历史事件存储和分析系统以及实时事件平台。简单的相似度指标,例如莱文斯坦距离或余弦相似度,在处理这些复杂性时往往力不从心。
它们可能难以区分诸如“Na'Vi”(通常被称为Natus Vincere)之类的简写名称,或者解决不同联赛中同名的歧义。稳健的映射需要更高级的技术,这些技术超越了基本的文本比较,以考虑上下文和特定领域的细微差别。
这种系统的开发是一个经典的datascience(数据科学)挑战的绝佳例子。我们设计了一个解决方案,该解决方案根据其历史游戏自动映射大约98%的竞争者/锦标赛,对两个数据源中的每一个执行成对比较。
为了确保100%的映射准确性,我们实施了严格的约束和验证检查。在五年多的运营中,没有观察到一例假阳性病例。这种强大的系统确保了即使是复杂的情况也能高效处理,从而提高了体育赛事数据映射的速度和准确性。
数据源
该系统基于来自各种来源的历史体育赛事时间表。它处理来自各个体育赛事的信息,并且需要一组最少的输入才能高效运行。它包括锦标赛名称、球队名称(包括竞争者,其中可以包括单个球员或对,如网球)、赛事时间和球队构成(可选,用于球员级别映射)。
虽然基本信息就足够了,但提供更详细的数据可以显着提高系统的性能。例如,在多人在线战斗竞技游戏(MOBA)游戏中总共击杀的数量,在Dota 2中每支队伍摧毁的塔的数量,反恐精英(CS)中的回合得分等。
这些额外的数据不仅加速了映射过程,而且提高了映射新球队和球员的效率。通过利用这个丰富的数据集,系统可以更快地映射实体,并在遇到以前未见过的竞争者或球队构成时确保更大的适应性。
数据准备
在集成新的体育项目或数据提供商时,需要进行一些初步工作以确保数据满足系统的需求。这些检查中的大多数是自动化的,如果映射没有出现问题,则无需手动干预。预处理通过修剪历史数据、规范化文本和清理特定于体育项目的标识符来确保一致性和映射准备。
这确保了系统可以平稳地适应新来源,而无需显着的延迟或手动工作,从而使该过程更有效。
冷启动映射
冷启动是一种用于初始映射(匹配)体育赛事的方法,当系统还没有足够的数据或记录时使用。当新的数据源由于没有足够的历史数据或信息用于映射时,这一点尤其重要,则使用替代方法,例如:
- 精确名称映射
系统搜索两支球队和锦标赛名称完全匹配的赛事。这是最快、最有效的方法,尤其是对于精确名称至关重要的大型体育项目。一般来说,大约是5-10%的竞争者,具体取决于提供商和体育项目。
- 频率映射
当找不到完全匹配时,系统可以根据两支球队同时出现的频率来确定匹配。这允许系统收集潜在的映射候选者列表,即使存在拼写差异或使用ID而不是人类可读名称的情况。
- 手动映射
如果自动方法失败,则必须手动匹配最初的5%的球队。完成此操作后,系统可以在将来的映射中更有效地执行。
映射系统统计方法的核心
在获得初始映射后,我们应用各种方法来进一步进行。这些方法中的大多数都基于静态方法。在这里,我们介绍了净化过程的概念,类似于但丁的“炼狱”。
考虑到人为因素,净化过程确保每个候选者在被考虑进行可靠映射之前必须达到指定数量的匹配。此阈值是为每个体育项目单独定义的,并用作系统的一个超参数。
置信度映射器方法
当体育赛事(锦标赛名称/球队名称/或其他)的两个元素已经映射时,使用此映射器。来自未映射元素的每个候选者都要经过净化过程,以确保映射的准确性。
映射与精确名称映射器方法
当一个实体已经映射,而另一个实体具有精确的名称匹配时,此映射器将触发。
迭代映射器方法
此方法涉及顺序应用先前的方法。通过迭代,您可以逐渐将越来越多的事件与已知实体相关联。只要将新实体添加到映射中,该过程就会继续进行。一旦系统耗尽其潜力,该过程就会结束。
手动映射:
该系统允许手动添加关系。例如,如果您想快速建立球队之间的联系,而不是等待足够数量的比赛通过净化过程,或者如果在系统中检测到错误(例如,创建大量在一个数据源中无效的事件)。
有两个选项可用:
- 用户界面(UI)映射:用户可以选择来自一个来源的哪些实体(球队、锦标赛、球员)对应于另一个来源中的实体。或者,用户可以禁止特定关系。在这种情况下,即使系统识别出这种连接,它也会被忽略。当数据源使用新信息覆盖现有实体而不是创建新实体时,此方法特别有用,这会导致不一致。
- 半手动映射:这种方法更半自动化。它涉及监控已经相互连接的来源。在这些情况下,连接将通过净化过程进行进一步验证。
体育赛事映射系统是确保来自各种来源的数据的准确性和一致性的关键要素。通过自动化映射过程并利用多种方法,例如精确名称匹配、频率映射和统计方法,该系统实现了高效率,保证了在集成数据时99.9%的准确性。但是,该过程还涉及验证步骤,包括在自动方法失败或需要快速建立新球队和锦标赛之间的联系时进行手动映射。
连接到系统的更多数据源,事件目录变得更加准确和完整,因为成对映射允许比较和协调来自多个来源的同一事件的不同版本。这种方法有助于避免与格式差异、拼写差异或名称变化相关的错误。它确保了更准确的数据解释和更高的整体系统性能。
用户提供的其他数据可以显着提高映射效率,使系统能够更快地适应新的来源或团队。该系统还考虑了特定于体育项目的标识符,使其具有灵活性,并准备好与新数据集成。虽然映射的初始阶段可能需要手动干预,但随着时间的推移,系统变得更加自主,即使在新来源或不太常用的来源中也能以高精度进行映射。
总的来说,该系统对体育分析和投注至关重要。它为用户提供了关于赛事、锦标赛和球队的准确及时的信息,这直接影响了预测的质量和投注策略。
通过集成更多数据源并改进其流程,该系统有可能彻底改变体育分析和投注,为准确性和适应性设定新的标准。